42장. 자주 하는 오해 정리
이 장의 목표 로컬 AI를 처음 만지는 사람이 가장 많이 빠지는 13가지 오해 를 한 번에 정리합니다.
책 마지막 점검 노트.
오해 ① “64GB 맥이면 64GB 모델까지 돌릴 수 있겠지”
아닙니다.
가중치만 메모리에 들어가는 게 아니라 KV Cache · 런타임 · macOS · 다른 앱 메모리까지 필요.
64GB 맥에서 안전한 모델 메모리 한도:
실제 가용 ≈ 64GB - macOS·앱 - 안전 마진
≈ 약 45~50GB
(4장·36장 참고)
오해 ② “Q4면 25% 성능만 나오는 거 아냐?”
아닙니다.
비트가 1/4 줄었다고 능력이 1/4이 되는 게 아닙니다.
Q4_K_M은 FP16 대비 체감 품질 90% 이상 유지 (5장).
오해 ③ “70B는 32B보다 무조건 좋다”
상황에 따라.
좋은 32B Instruct가 오래된 70B를 일상 업무에서 이길 수 있습니다 (3장·40장).
64GB 맥에서는 32B Q4가 표준.
오해 ④ “Context를 128K로 잡으면 항상 좋다”
아닙니다.
긴 context는:
- KV Cache 메모리 폭주 (6장)
- prefill 시간 증가
- 중간 정보 누락 (lost in the middle)
일반 업무는 16K~32K 가 답.
오해 ⑤ “로컬 AI니까 보안상 무조건 안전”
부분적으로만 맞습니다.
데이터 외부 유출은 막지만:
- Agent에 임의 권한 → 내부 파일 위험 (29장)
- Uncensored 모델 사용 → 컴플라이언스 위험 (34장)
- Prompt injection으로 의도치 않은 명령 실행
사내 도입 시 가드·로그·감사 필수.
오해 ⑥ “오픈소스 모델이니 마음대로 써도 됨”
아닙니다.
라이선스를 따져야 합니다. 특히:
- CC-BY-NC → 회사 사용 불가
- Llama → 표기 의무 + 월 7억 MAU 초과 시 별도 계약
- Gemma → Prohibited Use Policy
(12장)
오해 ⑦ “벤치마크 1등이면 내 업무도 잘함”
아닙니다.
- Data contamination
- Overfitting to benchmark
- 평가 방식 차이
내 업무 30~50문항이 가장 정확 (13장·40장).
오해 ⑧ “MoE는 작은 모델이라서 가볍다”
메모리는 큰 모델만큼 듭니다.
활성 파라미터만 적을 뿐 (14장).
Qwen3-30B-A3B → 메모리 30B 만큼, 속도 3B 수준
오해 ⑨ “Ollama·LM Studio·llama.cpp가 같은 층이다”
아닙니다.
엔진: llama.cpp / MLX
매니저: Ollama / mlx-lm
GUI: LM Studio
비교할 때 같은 층끼리만 (20장).
오해 ⑩ “파인튜닝하면 모델이 똑똑해진다”
작업이 늘어나지 새 지식이 늘진 않습니다.
새 사실을 외우게 하려면 RAG가 답. 파인튜닝은 새 작업·톤·형식 학습에 적합 (32장).
오해 ⑪ “Uncensored 모델이 더 솔직하다”
위험한 신뢰입니다.
안전 회로가 제거되면:
- 위험 정보 그대로
- 환각 더 자주
- 사내 컴플라이언스 위반
회사 도입은 거의 항상 ❌.
오해 ⑫ “Reasoning 모델은 모든 면에서 더 똑똑하다”
일반 대화는 오히려 답답합니다.
생각 과정을 길게 적기 때문에:
- 응답 늦음
- 토큰 많이 씀
- 간단한 질문에 과한 설명
수학·복잡 추론에만 진가 (9장).
오해 ⑬ “MLX가 GGUF보다 항상 빠르다”
대체로 빠르지만 항상은 아닙니다.
- 갓 나온 모델은 GGUF 먼저 풀림
- 일부 모델은 MLX 구현이 미완
- 양자화 종류에 따라 역전 가능
같은 모델 두 버전 받아 직접 비교가 답 (19장).
한 장 정리
| 오해 | 정답 |
|---|---|
| 64GB 맥 → 64GB 모델 | 실제 가용 ≈ 50GB |
| Q4 → 품질 25% | Q4_K_M ≈ FP16 90%+ |
| 70B > 32B 항상 | 케이스별. 32B Q4가 64GB 맥 표준 |
| 128K 항상 좋다 | 16~32K 권장 |
| 로컬 = 안전 | Agent·가드 없이는 안전 아님 |
| 오픈소스 = 자유 | 라이선스 따져야 |
| 벤치 1등 = 내 업무 1등 | 자체 셋 필수 |
| MoE = 가벼움 | 메모리는 그대로 |
| Ollama·LM Studio·llama.cpp 동급 | 층이 다름 |
| 파인튜닝 = 똑똑 | RAG가 새 지식엔 더 적합 |
| Uncensored = 솔직 | 위험 + 컴플라이언스 |
| Reasoning = 만능 | 간단 대화엔 과함 |
| MLX 항상 빠름 | 케이스별, 직접 비교 |
이 장에서 기억할 한 가지
로컬 AI의 7할은 “균형 잡기“입니다.
메모리 vs 속도, 품질 vs 시간, 자유 vs 안전, 학습 vs RAG.
한쪽 극단에 휘둘리지 않고 내 상황에 맞춰 손잡이를 돌릴 줄 알면 그게 전부입니다.
손으로 해볼 것
본인이 책 읽는 동안 했던 잘못된 가정 을 3개만 떠올려서 적어보세요.
1. ___
2. ___
3. ___
다음 사람에게 책을 추천할 때 “이거 이거 처음에 헷갈렸어” 같은 가이드가 됩니다.
다음 장에서는 모델 선택 의사결정 트리 를 한 장으로 정리합니다.